智能论文笔记

Machine Learning 1- and 2-electron reduced density matrices of polymeric molecules

David Pekker , Chungwen Liang , Sankha Pattanayak , Swagatam Mukhopadhyay

分类：机器学习

2022-08-09

与多体波函数相比，使用2电子降低密度矩阵（2RDM）编码分子的电子结构已经是一个数十年的任务，因为2RDM包含足够的信息来计算精确的分子能量，但只需要多项式存储。我们专注于具有不同构象和单体数量的线性聚合物，并表明我们可以使用机器学习来预测1电子和2电子降低密度矩阵。此外，通过将哈密顿操作员应用于预测的降低密度矩阵，我们表明我们可以恢复分子能。因此，我们证明了机器学习方法可以预测新构象和新分子的电子结构的可行性。同时，我们的工作规避了通过直接机器学习有效的有效降低密度矩阵来阻碍2RDM方法适应的N-陈述性问题。

translated by 谷歌翻译

Online Subset Selection using $α$-Core with no Augmented Regret

Sourav Sahoo , Samrat Mukhopadhyay , Abhishek Sinha

分类：机器学习 | 人工智能

2022-09-28

我们考虑在线学习设置中的顺序稀疏子集选择的问题。假设集合$ [n] $由$ n $不同的元素组成。在$ t^{\ text {th}} $ round上，单调奖励函数$ f_t：2^{[n]} \ to \ m athbb {r} _+，$，为每个子集分配非阴性奖励$ [n]，向学习者透露$。学习者在奖励功能$ f_t $ for $ f_t $之前（k \ leq n）$选择（也许是随机的）子集$ s_t \ subseteq [n] $ of $ k $元素。由于选择的结果，学习者在$ t^{\ text {th}} $ round上获得了$ f_t（s_t）$的奖励。学习者的目标是设计一项在线子集选择策略，以最大程度地提高其在给定时间范围内产生的预期累积奖励。在这方面，我们提出了一种称为Score的在线学习策略（带有Core的子集选择），以解决大量奖励功能的问题。拟议的分数策略基于$ \ alpha $ core的新概念，这是对合作游戏理论文献中核心概念的概括。我们根据一个名为$ \ alpha $的遗憾的新绩效指标为分数政策建立学习保证。在这个新的指标中，与在线政策相比，离线基准的功能适当增强。我们给出了几个说明性示例，以表明可以使用分数策略有效地学习包括子模型在内的广泛奖励功能。我们还概述了如何在半伴奏反馈模型下使用得分策略，并以许多开放问题的总结结束了论文。

translated by 谷歌翻译

Collisionless Pattern Discovery in Robot Swarms Using Deep Reinforcement Learning

Nelson Sharma , Aswini Ghosh , Rajiv Misra , Supratik Mukhopadhyay , Gokarna Sharma

分类：机器人

2022-09-20

我们提出了一个基于强化的学习框架，用于自动发现在脂肪机器人群的任何初始配置中可用的模式。特别是，我们对脂肪机器人群中无碰撞收集和相互可见性的问题进行了建模，并发现使用我们的框架来解决它们的模式。我们表明，通过根据某些约束（例如相互可见性和安全接口）来塑造奖励信号，机器人可以发现无碰撞的轨迹，导致形成良好的聚集和可见性模式。

translated by 谷歌翻译

Detecting respiratory motion artefacts for cardiovascular MRIs to ensure high-quality segmentation

Amin Ranem , John Kalkhof , Caner Özer , Anirban Mukhopadhyay , Ilkay Oksuz

分类：计算机视觉

2022-09-20

尽管机器学习方法在其培训领域表现良好，但通常在现实世界中往往会失败。在心血管磁共振成像（CMR）中，呼吸运动代表了采集质量以及随后的分析和最终诊断的主要挑战。我们提出了一个工作流程，该工作流程预测CMRXMOTION挑战2022的CMR中呼吸运动的严重程度得分。这是技术人员在获取过程中立即提供有关CMR质量的反馈的重要工具，因为可以直接重新获得质量较差的图像，同时还可以重新获得质量。该患者在附近仍有可用。因此，我们的方法可确保获得的CMR在用于进一步诊断之前达到特定的质量标准。因此，在严重运动人工制品的情况下，它可以有效地进行适当诊断的有效基础。结合我们的细分模型，这可以通过提供完整的管道来保证适当的质量评估和对心血管扫描的真实细分来帮助心脏病专家和技术人员的日常工作。代码库可在https://github.com/meclabtuda/qa_med_data/tree/dev_qa_cmrxmotion获得。

translated by 谷歌翻译

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

Sindhu B Hegde , K R Prajwal , Rudrabha Mukhopadhyay , Vinay P Namboodiri , C. V. Jawahar

分类：计算机视觉 | 自然语言处理

2022-09-01

在这项工作中，我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是，我们的方法（i）不仅限于固定数量的扬声器，（ii）并未明确对域或词汇构成约束，并且（iii）涉及在野外记录的视频，反对实验室环境。该任务提出了许多挑战，关键是，所需的目标语音的许多功能（例如语音，音调和语言内容）不能完全从无声的面部视频中推断出来。为了处理这些随机变化，我们提出了一种新的VAE-GAN结构，该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下，我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明，我们的优于所有基线的差距很大。此外，我们的网络可以在特定身份的视频上进行微调，以实现与单扬声器模型相当的性能，该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究，以分析我们体系结构不同模块的效果。我们还提供了一个演示视频，该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果： -合成}}

translated by 谷歌翻译

HTML版本

Wasserstein Embedding for Capsule Learning

Pourya Shamsolmoali , Masoumeh Zareapoor , Swagatam Das , Eric Granger , Salvador Garcia

分类：计算机视觉

2022-09-01

胶囊网络（CAPSNET）旨在将图像解析为由对象，部分及其关系组成的层次组件结构。尽管它们具有潜力，但它们在计算上还是很昂贵的，并且构成了一个主要的缺点，这限制了在更复杂的数据集中有效利用这些网络的限制。当前的CAPSNET模型仅将其性能与胶囊基线进行比较，并且在复杂任务上的基于CNN的DEEP基于DEEP基于CNN的级别的性能。本文提出了一种学习胶囊的有效方法，该胶囊通过一组子封装来检测输入图像的原子部分，并在其上投射输入向量。随后，我们提出了Wasserstein嵌入模块，该模块首先测量由子胶囊建模的输入和组件之间的差异，然后根据学习的最佳运输找到它们的对齐程度。该策略利用基于其各自的组件分布之间的相似性来定义输入和子胶囊之间的一致性的新见解。我们提出的模型（i）是轻量级的，允许将胶囊应用于更复杂的视觉任务；（ii）在这些具有挑战性的任务上的表现要好于或与基于CNN的模型相提并论。我们的实验结果表明，Wasserstein嵌入胶囊（Wecapsules）在仿射转换方面更加强大，有效地扩展到较大的数据集，并且在几个视觉任务中胜过CNN和CAPSNET模型。

translated by 谷歌翻译

HTML版本

Towards MOOCs for Lip Reading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale

Aditya Agarwal , Bipasha Sen , Rudrabha Mukhopadhyay , Vinay Namboodiri , C. V Jawahar

分类：计算机视觉

2022-08-21

许多具有某种形式听力损失的人认为唇读是他们日常交流的主要模式。但是，寻找学习或提高唇部阅读技能的资源可能具有挑战性。由于对与同行和言语治疗师的直接互动的限制，Covid $ 19 $流行的情况进一步加剧了这一点。如今，Coursera和Udemy等在线MOOCS平台已成为多种技能开发的最有效培训形式。但是，在线口头资源很少，因为创建这样的资源是一个广泛的过程，需要数月的手动努力来记录雇用的演员。由于手动管道，此类平台也受到词汇，支持语言，口音和扬声器的限制，并且使用成本很高。在这项工作中，我们研究了用合成生成的视频代替真实的人说话视频的可能性。合成数据可用于轻松合并更大的词汇，口音甚至本地语言以及许多说话者。我们提出了一条端到端的自动管道，以使用最先进的通话标题视频发电机网络，文本到语音的模型和计算机视觉技术来开发这样的平台。然后，我们使用仔细考虑的口头练习进行了广泛的人类评估，以验证我们设计平台针对现有的唇读平台的质量。我们的研究具体地指出了我们方法开发大规模唇读MOOC平台的潜力，该平台可能会影响数百万听力损失的人。

translated by 谷歌翻译

FaceOff: A Video-to-Video Face Swapping System

Aditya Agarwal , Bipasha Sen , Rudrabha Mukhopadhyay , Vinay Namboodiri , C. V. Jawahar

分类：计算机视觉

2022-08-21

双打在电影业中起着必不可少的作用。他们代替了演员在危险的特技场景或同一演员扮演多个角色的场景中代替。后来，Double的脸被演员的脸部和表达式取代，并用昂贵的CGI技术手动表达，耗资数百万美元，花了几个月的时间才能完成。一种自动化，廉价且快速的方法可以是使用旨在将身份从源面部视频（或图像）交换为目标面部视频的面部交换技术。但是，这种方法无法保留演员对场景上下文重要的源表达式。％对场景必不可少的。在电影院中必不可少的％。为了应对这一挑战，我们介绍了视频对视频（V2V）面部扫描，这是一项可以保留面部交换的新任务（1）源（演员）面部视频的身份和表达方式和（2）背景和目标（双重）视频的姿势。我们提出了一个V2V面部交换系统Cownoff，该系统通过学习强大的混合操作来运行，以根据上述约束来合并两个面部视频。它首先将视频减少到量化的潜在空间，然后将它们混合在减少的空间中。对抗以一种自我监督的方式进行了训练，并坚决应对V2V面部交换的非平凡挑战。如实验部分所示，面对面的表现明显优于定性和定量的交替方法。

translated by 谷歌翻译

To show or not to show: Redacting sensitive text from videos of electronic displays

Abhishek Mukhopadhyay , Shubham Agarwal , Patrick Dylan Zwick , Pradipta Biswas

分类：计算机视觉 | 人工智能 | 机器学习

2022-08-19

随着视频录制的越来越多的流行率，对可以维护记录人员隐私的工具的需求日益增长。在本文中，我们定义了一种使用光学角色识别（OCR）和自然语言处理（NLP）技术的组合从视频中编辑个人身份文本的方法。当与不同的OCR模型，特别是Tesseract和Google Cloud Vision（GCV）的OCR系统时，我们检查了这种方法的相对性能。对于拟议的方法，GCV的性能以准确性和速度显着高于Tesseract。最后，我们探讨了现实世界应用中这两种模型的优势和缺点。

translated by 谷歌翻译

Resisting Adversarial Attacks in Deep Neural Networks using Diverse Decision Boundaries

Manaar Alam , Shubhajit Datta , Debdeep Mukhopadhyay , Arijit Mondal , Partha Pratim Chakrabarti

分类：机器学习 | 计算机视觉

2022-08-18

深度学习（DL）系统的安全性是一个极为重要的研究领域，因为它们正在部署在多个应用程序中，因为它们不断改善，以解决具有挑战性的任务。尽管有压倒性的承诺，但深度学习系统容易受到制作的对抗性例子的影响，这可能是人眼无法察觉的，但可能会导致模型错误分类。对基于整体技术的对抗性扰动的保护已被证明很容易受到更强大的对手的影响，或者证明缺乏端到端评估。在本文中，我们试图开发一种新的基于整体的解决方案，该解决方案构建具有不同决策边界的防御者模型相对于原始模型。通过（1）通过一种称为拆分和剃须的方法转换输入的分类器的合奏，以及（2）通过一种称为对比度功能的方法限制重要特征，显示出相对于相对于不同的梯度对抗性攻击，这减少了将对抗性示例从原始示例转移到针对同一类的防御者模型的机会。我们使用标准图像分类数据集（即MNIST，CIFAR-10和CIFAR-100）进行了广泛的实验，以实现最新的对抗攻击，以证明基于合奏的防御的鲁棒性。我们还在存在更强大的对手的情况下评估稳健性，该对手同时靶向合奏中的所有模型。已经提供了整体假阳性和误报的结果，以估计提出的方法的总体性能。

translated by 谷歌翻译